草庐IT

Java Quartz 作业持久化

全部标签

hadoop - 运行配置单元查询,并收集作业信息

我想运行生成的HIVE查询列表。对于每个,我想检索MRjob_id(或id,如果是多个阶段)。然后,使用这个job_id,从jobtracker收集统计信息(累计CPU,读取字节......)我如何从bash或python脚本发送HIVE查询,并检索job_id(s)?对于第二部分(收集作业的统计信息),我们使用的是MRv1Hadoop集群,所以我没有AppMasterRESTAPI.我即将从jobtracker网络用户界面收集数据。有更好的主意吗? 最佳答案 运行这条命令可以得到执行的作业列表,hadoop作业-列出所有然后对于每

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业?

我正在尝试使用HDInsight在Azure上使用Hadoop,但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止,我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs,但它使用PowerShell,我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外,是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业?

perl - 在组合器中使用管道的 Hadoop 流作业

我正在尝试像这样运行一个Hadoop流作业:yarnjar/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.*.jar\-filescount.pl\-input"/my_events/*.bz2"\-outputcount-events\-mapper"cut-f2,4|grepfoo|cut-f1"\-combiner"perlcount.pl-s|perlcount.pl"\-reducer"perlcount.pl"count.pl脚本是一个简单的脚本,它只对键进行计数,像这样(简化)循环输入:while(){chomp;my($

java - 如何将外部 jar 添加到 hadoop 作业?

我有一个Hadoop作业,其中映射器必须使用外部jar。我试图将这个jar传递给映射器的JVM通过hadoop命令的-libjars参数hadoopjarmrrunner.jarDAGMRRunner-libjars/colt.jar通过job.addFileToClassPathjob.addFileToClassPath(newPath("/colt.jar"));在HADOOP_CLASSPATH上。g1mihai@hydra:/home/g1mihai/$echo$HADOOP_CLASSPATH/colt.jar这些方法都不起作用。这是我返回的堆栈跟踪。它提示缺少的类是Spa

hadoop - SparkR 作业 100 分钟超时

我编写了一个有点复杂的sparkR脚本并使用spark-submit运行它。脚本基本上做的是逐行读取一个大的基于hive/impalaparquet的表并生成具有相同行数的新parquet文件。但似乎工作在大约100分钟后停止,这似乎有些超时。对于多达500K行的脚本,它可以完美运行(因为它需要不到100分钟)对于1、2、3或更多行,脚本在100分钟后退出。我检查了所有我知道并测试过的值在100分钟范围内的可能参数。但找不到任何解决方案。[user@localhostR]$timespark-submitsparkr-pre.RLoadingrequiredpackage:method

java - 在 hadoop 中运行作业 - 错误

我正在尝试在hadoop~$Desktop/HadoopProject2016.jar输入输出中运行一个程序,但我不断收到此错误:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:hadoop_project_16/AggregateJob:Unsupportedmajor.minorversion52.0atjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(ClassLoader.java:80

java - 链接 Map Reduce 作业时出错

我的MapReduce结构publicclassChainingMapReduce{publicstaticclassChainingMapReduceMapperextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{//code}}}publicstaticclassChainingMapReduceReducerextendsReducer{publicvoidreduce(Textkey,Iterablevalues,Context

hadoop - 是否可以从中断的地方重新启动 "killed"Hadoop 作业?

我有一个处理日志文件和报告一些统计数据的Hadoop作业。由于文件句柄用完,该作业大约在作业进行到一半时终止。我已经解决了文件句柄的问题,想知道是否可以重新启动“已终止”的作业。 最佳答案 事实证明,没有好的方法可以做到这一点;一旦作业被终止,就无法在第一次失败之前立即重新实例化该作业并重新开始处理。这可能有一些很好的理由,但我没有资格谈论这个问题。在我自己的案例中,我正在处理大量日志文件并将这些文件加载​​到索引中。此外,我同时创建了一份关于这些文件内容的报告。为了使工作更能容忍索引端的故障(副作用,这与Hadoop完全无关)我改

hadoop - 如何在 Azkaban 中使用 Hive 作业?

我想将Azkaban用于周期性的Hive作业,我查看了Azkaban文档,似乎默认情况下它不支持Hive作业,您知道如何将这两者结合使用吗?我想,我必须将Hive作业作为Azkaban中可用的“命令作业”来运行,但也许有人已经解决了。我使用Oozie有一段时间了,但它不能满足我的需求。谢谢。 最佳答案 目前我们没有简单的方法。您当然可以侵入HiveCliDriver并从那里进行操作,但它不是最理想的……或者,只需将其作为命令行作业运行即可。我们在LI使用不同的系统。我希望尽快添加此功能,但不确定何时有机会。

eclipse - 使用 Eclipse 开发、测试和调试 Hadoop map/reduce 作业

在Eclipse中开发JavaMapReduce作业有哪些选择?我的最终目标是在我的亚马逊Hadoop集群上运行我开发的map/reduce逻辑,但我想先在我的本地机器上测试逻辑并在将其部署到更大的集群之前在其中放置断点。我看到有一个用于Eclipse的Hadoop插件看起来很旧(如果我错了请纠正我),一家名为Karmasphere的公司有一些用于ecplise和Hadoop的东西,但我不确定它是否仍然可用。您如何使用Eclipse开发、测试和调试您的map/reduce作业? 最佳答案 我通过以下方式在Eclipse中开发Cass